Google I/O 2024 都有什么和生成式 AI 相关的话题

Original renee创业狗 Renee 创业随笔

2024-10-09

Gemini模型

Gemini 1.5 Flash：一款轻量级模型，设计目标是在大规模应用中实现快速高效的服务。1.5 Flash 是 API 中速度最快的 Gemini 模型。
显著提升了 1.5 Pro，这款模型在广泛任务中的整体表现最佳。Google 在 Gemini API 和 AI Studio 中增加了音频理解功能，因此 Gemini 1.5 Pro 现在可以针对 AI Studio 中上传的视频进行图像和音频推理。
1.5 Pro 和 1.5 Flash 都在 Google AI Studio 和 Vertex AI 上提供公共预览，具备 100 万 token 的上下文窗口。1.5 Pro 还通过 Google AI Studio 和 Vertex AI 的开发者候补名单提供 200 万 token 的上下文窗口。
Gemini API允许同时处理图像、文本、代码、视频和音频，在单个提示中可以包含长达1小时的视频、9.5小时的音频、1000页的文本或3600张图像。这实现了强大的功能，如视频/文本/图像搜索和推理。

搜索

Grounding with Google Search 工具现在在 Vertex AI 上正式上线，该工具将 Gemini 模型与世界知识、广泛的主题或最新的互联网信息相连接。

AI 助理

Project Astra：对未来 AI 助理的愿景。
NotebookLM 的 Audio Overviews 原型，它使用一系列上传的材料为用户创建个性化的口头讨论。

Android 设备

从 Pixel 开始，使用 Gemini Nano 与多模态应用程序将能够像人类一样理解世界——不仅通过文本输入，还通过视觉、听觉和口语。
新增了一个旅游行程规划功能，不仅仅提供活动建议列表，还会为用创建一个定制的行程。
Talkback 是一项帮助盲人和低视力人士通过触摸和语音反馈更好地与设备互动的 Android 无障碍功能，得益于具备多模态功能的 Gemini Nano，这项功能将得到改进。
新的选择性诈骗保护功能将利用 Gemini Nano 的设备 AI 来帮助检测诈骗电话，并保护隐私。更多详情将在今年晚些时候发布。
宣布 Circle to Search 目前已在超过 1 亿部 Android 设备上可用，并计划在今年年底前将这一数字翻倍。学生现在可以使用 Circle to Search 在特定的 Android 手机和平板电脑上直接寻求作业帮助。此功能由基于 Gemini 的新模型系列 LearnLM 提供支持，专为学习而微调。今年晚些时候，Circle to Search 将能够解决涉及符号公式、图表、图形等的更复杂问题。

很快，用户将能够在 Android 上使用 Gemini 创建并将生成的图像拖放到 Gmail、Google Messages 等应用中，或询问用户正在观看的 YouTube 视频的相关信息。
得益于 Google 的 Gemini 模型，Google TV 和其他 Android TV OS 设备上更容易挑选观看内容，并提供个性化的 AI 生成描述。这些 AI 生成的描述还将填补电影和节目描述的缺失或未翻译内容。

现有产品融合

将最先进的模型 Gemini 1.5 Pro 引入 Gemini Advanced 订阅者，这意味着 Gemini Advanced 现在具备 100 万 token 的上下文窗口，并且能够处理 1500 页的 PDF。也意味着 Gemini Advanced 现在拥有全球任何商业聊天机器人中最大的上下文窗口。
增加了通过 Google Drive 或直接从设备上传文件到 Gemini Advanced 的功能。将帮助用户分析数据，快速发现见解，并从上传的数据文件（如电子表格）中生成图表。
Gemini Live，这是一个新的、以移动设备为主的对话体验，使用最先进的语音技术，帮助用户与 Gemini 进行更自然、直观的语音对话。允许用户从 10 种自然声音中选择其回应声音；此外，用户可以以自己的节奏说话，或者在回复过程中打断并提出澄清问题。
在 Google Messages 中，用户可以在与朋友消息往来的同一应用中与 Gemini 聊天。
很快将能够创建 Gems，这是根据用户的需求设计的定制版 Gemini。只需描述用户希望 Gem 做什么以及如何回应，Gemini 就会根据这些指示创建符合用户特定需求的 Gem。
更多 Google 工具与 Gemini 的连接，包括 Google Calendar、Tasks、Keep 和 Clock。
Gemini 1.5 Pro 现已在 Workspace Labs 中的 Gmail、Docs、Drive、Slides 和 Sheets 的侧边栏中提供，并将于下个月向 Workspace 客户和 Google One AI Premium 订阅者推出。用户可以使用 Gmail 的侧边栏来总结邮件，获取最重要的细节和行动项目。除了摘要，Gmail 移动应用程序很快将使用 Gemini 实现另外两个新功能：上下文智能回复和 Gmail 问答。在接下来的几周内，Gmail 和 Docs 中的“帮我写”功能将支持西班牙语和葡萄牙语。
今年晚些时候，在 Labs 中，用户可以要求 Gemini 自动整理 Drive 中的邮件附件，生成包含数据的表格，然后通过数据问答进行分析。
Google Photos 中名为 Ask Photos 的新实验功能使查找特定记忆或回忆图库中的信息更加容易。该功能使用 Gemini 模型，并将在未来几个月内逐步推出。还可以使用 Ask Photos 从最近的旅行中创建一个亮点图库，并为用户编写个性化的标题以便在社交媒体上分享。
由Gemini驱动的新数据科学智能体，它可以解释有关数据的问题并在协作笔记本中生成代码。

多模态

宣布了 Imagen 3，这是迄今为止质量最高的图像生成模型。能理解自然语言和提示背后的意图，并能从较长的提示中抓住细节。这有助于它生成具有惊人细节的逼真图像，减少了相较于以前模型的视觉干扰。也是迄今为止在文本渲染方面表现最好的图像生成模型。Google 已在 ImageFX 向可信测试者推出了 Imagen 3，并开放了候补名单的注册；也将在今年夏天上线 Vertex AI。
在 ImageFX 中增加了更多的编辑控制，这是社区的首要功能请求，因此用户可以通过简单地刷过图像来添加、删除或更改元素。ImageFX 还将利用 Imagen 3 实现更多的逼真细节，更少的视觉干扰和更准确的文本渲染。已通过 Labs 在超过 100 个国家和地区上线。
宣布了 Veo，这是迄今为止最强大的视频生成模型。它可以生成高质量的 1080p 分辨率视频，时长超过一分钟，并具有多种电影和视觉风格。Veo 的一些功能未来也将应用于 YouTube Shorts 和其他产品。通过与电影制片人合作展示了 Veo 的潜力，包括 Donald Glover，他利用 Veo 进行了一项电影项目的实验。
宣布了 VideoFX，这是最新的实验工具，利用 Google DeepMind 的生成视频模型 Veo，让用户将一个想法变成视频片段。VideoFX 还带有一个 Storyboard 模式，可以逐场景迭代，并为最终视频添加音乐。
强调了 Music AI Sandbox，这是一个音乐 AI 工具套件，允许用户从头开始创作新的乐器部分，在音轨之间传递风格等。用户可以在 YouTube 上找到这些合作的新歌，包括 Wyclef Jean 和 Marc Rebillet 的作品。
MusicFX 具有一个新功能，称为“DJ 模式”，可以通过结合不同的流派和乐器来混合节拍，利用生成 AI 的力量将音乐故事带入生活。已通过 Labs 在超过 100 个国家和地区上线。
推出了 Infinite Wonderland，这是一个艺术家与 Google 创意团队合作微调 AI 模型的体验，用来无穷无尽地重新想象《爱丽丝梦游仙境》小说的视觉世界。Infinite Wonderland 的读者可以根据每位艺术家的风格，为书中的 1200 个句子生成看似无限的图像。

开放模型

Google 介绍了 PaliGemma，这是 Google 的首款视觉语言开放模型，优化用于视觉问答和图像描述。
Google 预览了下一版本的 Gemma（之前分享过上一个版本：Gemma - 谷歌最新开放模型），即 Gemma 2。它基于全新的架构构建，包含一个更大的 27B 参数实例，性能优于规模两倍的模型，并在单个 TPU 主机上运行。
LoRA可以高效地微调Gemma等大型模型以执行特定任务。下面展示了一个在儿童书籍数据上微调Gemma以创建专家聊天机器人系统的示例。

开发者

Gemini 模型可以帮助开发者在 Android Studio、IDX、Firebase、Colab、VSCode、Cloud 和 IntelliJ 中提高生产力。
Gemini 1.5 Pro 将于今年晚些时候在 Android Studio 推出。配备大上下文窗口，这款模型提供更高质量的响应，并解锁了多模态输入等用例。Gemini API 现在支持并行函数调用和视频帧提取。下个月推出的 Gemini API 新的上下文缓存功能，将通过缓存经常使用的上下文文件以更低的成本简化大提示词的工作流程。
Firebase 发布了 Firebase Genkit 测试版，使开发者更容易将生成式 AI 体验集成到他们的应用中。

芯片

Trillium，第六代定制 AI 加速器，即 Tensor Processing Unit (TPU)。这是迄今为止性能最强的 TPU。与 TPU v5e 相比，Trillium TPU 实现了每芯片峰值计算性能的 4.7 倍提升，能效提高了 67% 以上。

医疗

宣布了AlphaFold 3，结合了Google、DeepMind和Isomorphic Labs的创新,用于预测蛋白质、DNA和RNA中的结构,释放科学进步。
人工智能有可能通过提高诊断准确性、协助医疗程序以及让医生有更多时间与患者交流，来彻底改变医疗保健。它可以打造"超级医生"。
医疗数据非常适合多模态人工智能，可以整合影像、文本、基因组学、可穿戴设备数据等,提供全面的健康状况画像，实现主动的医疗保健。
老年护理是人工智能可以提供帮助的一个迫切领域，可协助老年人更长时间独立地在家生活。

教育

宣布了 LearnLM，这是基于 Gemini 并为学习微调的新模型系列。LearnLM 已经为 Google 的一系列产品提供功能支持，包括 Gemini、搜索、YouTube 和 Google Classroom。将与哥伦比亚师范学院、亚利桑那州立大学、纽约大学帝势艺术学院和可汗学院等机构的专家合作，完善并将 LearnLM 扩展到 Google 产品之外。
还与 MIT RAISE 合作开发了一门在线课程，使教育工作者能够有效地在课堂上使用生成式 AI。
Learn About 是 Google 新推出的实验室体验，旨在通过高质量内容、学习科学和聊天体验相结合，探索信息如何转化为理解。用户可以提问，Learn About 会通过图片、视频、网页和活动，帮助用户以自己的节奏深入了解任何主题。在此过程中，用户可以上传文件或笔记，并随时提出澄清问题。
构建了一种名为 Illuminate 的新实验工具，使知识更加易于获取和理解。Illuminate 可以生成两个 AI 生成的声音之间的对话，概述研究论文中的关键见解。用户可以在 labs.google 上注册试用。

Responsible AI

Google 正在通过一种称为“AI 辅助红队测试”的新技术来增强红队测试——一种经过验证的实践，Google 主动测试自己的系统弱点并尝试破解它们。
将 SynthID 扩展到两种新模态：文本和视频。SynthID 文本水印也将在未来几个月内通过更新的负责任生成式 AI 工具包开源。这个我之前分享过《2024年人工智能指数报告》- 2.1.1 SynthID多功能的数字水印工具

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

Google I/O 2024 都有什么和生成式 AI 相关的话题

搜索

AI 助理

Android 设备

现有产品融合

多模态

开放模型

开发者

芯片

医疗

教育

Responsible AI

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

Google I/O 2024 都有什么和生成式 AI 相关的话题

搜索

AI 助理

Android 设备

现有产品融合

多模态

开放模型

开发者

芯片

医疗

教育

Responsible AI

您可能也对以下帖子感兴趣